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摘要 : [目的 /意义 ] 中 华 民族 与 中 国共 产 党 人 对 真理 追求 的 过 程 形成 红色 文化 资源 ， 对 其 进行 知识 
组 织 和 挖掘 构建 “红色 记忆 ”， 不 仅 能 够 提升 民族 自信 与 凝聚 力 ， 更 是 坚定 文化 自信 的 重要 途径 。 针 对 
红色 文化 资源 所 存在 的 分 布 广 、 来 源 多 、 类 型 杂 、 内 容 有 限 、 组 织 程度 低 等 问题 ， 构 建 基于 多 源 异 构 数 
据 挖 气 的 “红色 记忆 ”知识 图 谱 ， 以 充分 利用 红色 文化 资源 。[ 方 法 /过 程 ] 首先 通过 设计 概念 、 关 系 及 
属性 构建 红色 文化 资源 本 体 库 ， 完成 “红色 记忆 ”的 知识 建 模 工作 ; 其 次 通过 多 渠道 采集 红色 文化 资源 ， 
具体 分 析 红 色 文化 资源 的 构成 和 特点 ， 针 对 这 些 多 源 蜡 构 数据 进行 实体 、 属 性 、 关 系 识别 采取 ; 最 后 
通过 图 数据 库存 储 构 建 “ 红色 记 忆 ” 知 识 图 谱 。[ 结果/ 结论] 通过 构建 “红色 记忆 ”知识 图 谱 ， 能 够 对 
多 源 异 构 的 红色 文化 资源 数据 进行 深层 关系 挖 据 ， 提 升 红 色 文化 资源 的 组 织 水 平 ， 为 实现 红色 文化 智能 
化 服务 英 定 基础 。 
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语义 角度 组 织 网 络 数据 ， 构 建 大 型 知识 库 ， 进 
而 提供 智能 搜索 服务 。 国 内 外 各 公司 和 研究 机 
构 也 纷纷 开始 构建 知识 图 谱 ， 如 德国 马 普 所 的 


Ola 


红色 文化 资源 是 中 华 民族 与 中 国共 产 党 人 


在 对 真理 追寻 的 过 程 中 形成 的 ， 这 使 得 其 历史 
发 展 的 周期 性 较 长 ， 从 而 导致 红色 文化 资源 在 
开发 和 利用 的 过 程 中 存在 着 分 布 广 、 来 源 多 、 
类 型 杂 、 内 容 有 限 、 组 织 程度 低 等 问题 ， 阻 碍 
了 用 户 对 红色 文化 资源 的 深层 次 利用 ,2012 年 ， 
谷歌 公司 首先 提出 知识 图 谱 的 概念 丫 ， 意 在 从 


YAGO”, RIKA Knowledge Vault”, @ AK 
的 CN-DBpedia 及 清华 大 学 的 XLoreD 等 。 知 
识 图 谱 作 为 一 种 重要 的 知识 表示 方式 ， 逐 新 成 
为 各 行 各 业 从 网 络 化 向 智能 化 转型 升级 的 重要 
一 环 ， 具 有 广阔 的 发 展 前 景 口 。 

红色 文化 资源 作为 中 华 优秀 文化 的 重要 
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构成 部 分 ， 蕴 涵 着 十 分 丰富 的 革命 和 历史 价 
值 ， 是 坚定 文化 自信 的 基础 支撑 趾 。 受 电子 
技术 迅速 发 展 的 影响 ， 许 多 地 区 提出 了 建立 
红色 文 资 源 数 据 库 ， 如 四 川 特色 文化 资源 数 
Hee .西柏 坡 红色 教育 资源 基础 数据 库 呈 等 ， 
这 在 一 定 程度 上 使 得 红色 文化 资源 的 组 织 程 
度 得 到 了 提升 ， 但 也 还 仅仅 停留 在 数据 存储 
的 阶段 ， 其 组 织 程度 还 不 够 高 。 知 识 图 谱 这 
一 新 的 资源 组 织 方 式 并 没有 在 红色 文化 资源 
的 研究 利用 中 得 到 广泛 的 应 用 。 因 此 ， 笔 者 
通过 采集 结构 各 异 、 来 源 不 同 的 红色 文化 资 
源 数据 ， 对 其 进行 知识 组 织 和 挖掘 ， 进 而 构 
建 “ 红 色 记 忆 ” 知 识 图 谱 ， 提 升 红 色 文 化 资 
源 组 织 程度 , 把 红色 文化 资源 以 更 直观 、 动 态 、 
关联 的 形式 呈现 给 用 户 。 
O “红色 记忆 ”知识 图 谱 的 构建 流程 

红色 文化 资源 是 中 国共 产 党 领导 的 革命 和 建 
设 中 所 形成 的 崇高 精神 及 其 物质 载体 的 总 称号 ， 
它 不 仅 存在 于 过 去 ， 而 且 发 展 于 当下 ， 其 内 涵 
将 伴随 历史 进程 和 实践 需要 而 不 断 深 化 。 对 红 
色 文 化 资源 进行 组 织 和 挖掘 ， 可 以 重 现 蕴 涵 在 
其 中 的 “红色 记忆 ”。 知 识 图 谱 本 质 上 是 结构 化 、 
语义 化 的 知识 库 ， 它 以 图 的 结构 表示 现实 世界 
中 的 实体 、 属 性 及 其 关联 ， 其 中 图 的 节点 代表 
实体 ， 而 实体 之 间 存 在 的 语义 关联 则 用 图 中 的 
边 来 描述 '。 构 建 知识 图 谱 的 方式 主要 有 以 下 
两 种 : 自 顶 向 下 和 自 底 向 上 "1。 自 顶 向 下 的 方 
式 是 指 事先 细 化 概念 及 概念 之 间 的 关系 ， 完 成 
本 体 库 设计 ， 形 成 知识 图 谱 的 Schema 层 ， 然 
后 将 实体 匹配 填充 到 预定 义 好 的 本 体 Schema 
层 中 。 自 底 向 上 的 方法 则 是 先 从 语料库 或 数据 
集中 抽取 出 实体 、 属 性 和 关系 ， 并 把 同类 型 的 
实体 重新 进行 组 织 ， 将 其 抽象 为 概念 ， 最 后 构 
建 得 到 Schema Jz. 

笔者 将 综合 应 用 自 顶 向 下 和 自 底 向 上 这 两 
种 不 同 的 方式 来 构建 “红色 记忆 ”知识 图 谱 。 
首先 ， 通 过 观察 比较 红色 文化 资源 的 各 个 数据 
源 ， 确 定 “红色 记忆 ”知识 图 谱 所 需要 的 具体 
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数据 ， 通 过 编写 网 络 候 虫 、 手 动 采 集 等 方式 从 
红色 图 书 、 网 站 、 开 放 数 据 集 、 百 科 等 多 种 数 
据 源 中 获取 构建 “红色 记忆 ”知识 图 谱 所 需要 
的 数据 ， 其 中 ， 开 放 数 据 集 是 结构 化 数据 的 主 
要 来 源 ， 百 科 是 半 结 构 化 数据 的 来 源 ， 从 红色 
图 书 和 红色 文化 垂直 站 点 获取 的 则 是 非 结构 化 
文本 ; 其 次 ， 通 过 剖析 红色 文化 资源 数据 的 构 
成 及 特征 来 设计 概念 、 关 系 及 属性 ， 运 用 工具 
Protégé 构建 红色 文化 资源 本 体 库 , 从 而 完成 “ 红 
色 记 忆 ” 知 识 建 模 ; 然后 , 基于 设计 好 的 本 体 库 ， 
根据 所 获取 的 不 同形 式 的 数据 采取 不 同 的 方法 
进行 实体 、 关 系 、 属 性 的 抽取 ; 最 后 ， 将 识别 
得 到 的 红色 文化 资源 知识 进行 整合 处 理 ， 并 将 
其 存 人 图 数据 库 Neo4 中 ， 通 过 Neo4j 完成 知 
识 的 可 视 化 呈现 ， 实 现 “ 红 色 记 忆 ” 知 识 图 谱 
的 构建 ， 整 体 过 程 如 图 1 所 示 。 


Q 基于 “红色 记忆 ”本 体 构 建 的 知 
识 建 模 

知识 建 模 是 知识 图 谱 构 建 的 一 项 重要 任 
务 ， 它 是 对 知识 进行 逻辑 化 和 体系 化 的 过 程 。 
通过 本 体 构建 来 进行 知识 建 模 能 够 充分 描述 知 
识 图 谱 中 所 涉及 到 事物 的 属性 及 联系 。 本 体 
作为 一 种 抽象 化 的 表示 模型 ， 可 以 清楚 明了 
地 定义 和 描述 概念 及 概念 之 间 的 关系 ， 确 定 知 
识 图 谱 的 数据 形态 ， 说 明知 识 图 谱 中 存在 哪些 
数据 ， 例 如 实体 的 类 别 、 不 同 实体 所 拥有 的 属 
性 、 实 体 与 实体 之 间 的 关联 中。 本 体 的 构建 过 
程 较 为 复杂 ， 为 了 确保 规范 性 ， 构 建 本 体 时 必 
须要 遵循 相应 的 原则 。 目 前 被 广泛 认同 的 本 体 
建 模 规范 是 T. R. Gruber 提出 的 5 条 准则 : 明 
确 性 、 一 臻 性、 可 扩展 性 、 最 小 编码 偏差 和 最 
小 本 体 承 诺 趾 。 对 于 本 体 构 建 方 法 而 言 ,， 目 
前 已 有 一 些 较 为 成 熟 的 方式 ， 如 IDEF-5 法 、 
Methontology 法 、 七 步 法 和 基于 令 词 表 构 建 本 
体 法 等 ， 其 中 ,七 步 法 相 比 其 他 方法 而 言 具 有 
一 定 的 通用 性 "外 ， 所 以 笔者 选用 七 步 法 ， 并 综 
合 考 虑 红色 文化 资源 自身 的 特点 ,构建 “红色 
记忆 ”本 体 库 。 
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概念 设计 
RAK 
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红色 记忆 ” 
本 构建 


“红色 记忆 ” 
知识 图 谱 


作为 一 种 特别 的 文化 资源 ， 红 色 文 化 资源 
不 仅 具 有 资源 的 属性 也 具有 文化 的 属性 ， 还 具 
有 二 者 深度 融合 所 衍生 出 来 的 特殊 属性 "7 ， 这 
也 导致 了 其 分 类 标准 的 多 样 性 。 根 据 汇 长 根 等 
UO 的 归纳 ， 目 前 学 术 界 针对 红色 文化 资源 所 采 
用 的 最 基本 的 分 类 法 是 将 其 划分 为 物质 和 精神 
两 大 类 ， 除 此 之 外 ， 有 的 学 者 将 红色 文化 资源 
划分 为 动态 和 静态 两 种 类 型 ,或 是 根据 一 般 、 
特殊 的 两 分 法 来 对 红色 文化 资源 进行 分 类 。 在 
实际 的 研究 中 ， 除 了 将 红色 文化 资源 按照 简单 
的 二 分 法 标准 来 划分 外 ,通常 还 会 根据 不 同 的 
学 科 需 要 来 进行 进一步 的 调整 划分 ， 张 泰 城 
依据 “以 主题 分 类 为 主 、 兼 顾 学 科 的 原则 ”,， 
并 遵循 中 文 的 语言 习惯 将 红色 文化 资源 划分 为 
红色 旧址 、 需 物 、 文 献 、 人 物 、 事 件 、 文 艺 、 
建筑 、 精 神 、 研 究 、 创 作 10 个 大 类 ; 张 克 伟 
按照 国家 旅游 资源 的 分 类 方法 首先 把 红色 文化 
资源 细 分 为 三 大 主 类 : 遗址 遗迹 、 建 筑 和 设施 、 
人 文 活动 ， 再 将 其 细 分 为 10 种 基本 类 型 ， 其 中 


F 


遗址 遗迹 包含 历史 事件 的 发 生地 、 军 事 遗 址 与 
古 战 场 两 类 ， 建 筑 和 设施 分 为 文化 活动 场所 、 
展示 演示 的 场馆 、 碑 碍 ( 林 ) 、 名 人 故居 和 历 
史 纪 念 建筑 、 陵 区 陵园 5 类 , 人 文 活动 包含 人 物 、 
事件 和 文艺 作品 3 类 。 

构建 “红色 记忆 ”本 体 库 通 常 需要 对 概念 、 
属性 及 关系 等 多 个 方面 进行 设计 考量 。 对 于 “ 红 
色 记 忆 ” 来 说 ， 其 核心 是 人 ， 因 此 首先 确定 的 
是 “人 物 ” 这 一 重要 概念 ， 与 之 密切 联系 的 必 
然 是 人 物 所 经 历 或 参与 的 事件 ， 因 此 也 加 入 “ 事 
件 ” 概 念 。 根据 “人 物 ” 和 “事件 ”这 两 个 主 
题 概念 对 “红色 记忆 ”相关 的 信息 进行 浏览 ， 
发 现 人 物 所 加 入 的 组 织 与 人 物 和 事件 的 联系 也 
非常 密切 ， 故 将 “组 织 ” 加 入 本 体 列表 。 除 此 
之 外 ， 人 物 故居 、 纪 念 馆 、 陵 园 等 信息 也 是 比 
较 重 要 的 概念 , 而 这 些 信 息 都 可 以 看 作 是 建筑 ， 
因此 ， 新 增 “ 建 筑 ” 这 一 概念 。 针 对 “红色 记 
忆 ”， 其 所 具有 的 文化 属性 也 必然 会 涉及 到 红 
色 文 学 艺术 作品 ， 所 以 增加 “资源 ”这 一 概念 。 
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这 5 个 概念 确定 之 后 ， 参 考 前 文 提 到 的 分 类 标 
准 以 及 实际 搜集 到 的 数据 来 辅助 划分 子 概念 。 
其 中 ， 人 物 作为 独立 概念 不 再 进行 划分 ; 由 于 
搜集 到 的 事件 相关 数据 基本 为 会 议和 战争 两 类 ， 
所 以 将 事件 划分 为 会 议 、 战 争 及 其 他 3 类 ， 同 
样 地 将 组 织 划分 为 学 校 、 军 团 、 政 党 和 其 他 ， 
将 建筑 分 为 名 人 故居 、 纪念馆 、 纪 念 碑 、 纪 念 塔 、 
遗址 (旧址) 、 陵 园 、 陵 幕 ; 资源 则 按照 载体 
形态 的 不 同 分 为 书籍 、 电 影 、 画 作 、 诗 词 和 歌 
曲 。 综 合 考虑 以 上 几 个 概念 ， 发 现 事件 、 建 筑 、 
组 织 的 细 分 概念 存在 一 些 模糊 的 边界 问题 难以 
确定 ， 并 且 直 接 使 用 子 类 概念 进行 构建 会 降低 
本 体 的 可 扩展 性 ， 所 以 将 事件 、 建 筑 、 组 织 的 
子 类 概念 取消 ， 转 而 新 增 “ 类 型 ”这 一 概念 ， 
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并 将 类 型 划分 为 事件 类 型 、 建 筑 类 型 和 组 织 类 
型 3 类， 并 在 各 类 型 中 添加 “其 他 ”这 一 选项 ， 
从 而 保证 了 所 构建 本 体 的 全 面 性 、 准 确 性 和 可 
扩展 性 。 

综 上 所 述 ，“ 红 色 记 忆 ” 本 体 中 的 概念 主 
要 分 为 以 下 6 个 类 别 : 建筑 (Architecture ) 、 
事件 ( Event )、 类 型 ( Genre ) 组织 ( Organization )、 
AW (Person) 、 资 源 (Resource) ， 其 中 类 型 
与 资源 两 个 概念 下 又 划分 了 多 个 子 概念 ， 类 别 
分 为 建筑 类 型 、 事 件 类 型 和 组 织 类 型 。 对 每 个 
类 别 的 数据 进行 分 析 发 现 每 个 概念 具有 的 特征 
不 同 , 故 根据 不 同类 别 的 特征 对 属性 进行 定义 ， 
这 里 选取 了 “红色 记忆 ”本 体 模 型 部 分 概念 和 
属性 进行 展示 ， 如 表 1 所 示 : 


表 1 “红色 记忆 ”本 体 模型 部 分 概念 和 属性 
序号 概念 子 概念 属性 
1 建筑 ( Architecture ) 建筑 建筑 ID 、 名 称 、 所 在 地 、 图 片 、 类 别 、 描 述 
2 事件 (Event ) 事件 事件 ID 、 名 称 、 起 始 时 间 、 结 束 时 间 、 发 生地 、 参 与 人 员 、 描 述 
类 型 ( Genre ) 组 织 类 型 组 织 类 型 ID 、 组 织 具 体 类 型 
3 建筑 类 型 建筑 类 型 ID 、 建 筑 具 体 类 型 
事件 类 型 事件 类 型 ID 、 事 件 具体 类 型 
4 组 织 ( Organization ) 组 织 组 织 ID 、 组 织 名 称 
5 人 物 (Person ) 人 物 人 物 ID、 姓 名 、 出 生 时 间 、 死 亡 时 间 、 人 性别、 职位 、 别 名 、 国 籍 、 民 族 、 
出 生地 、 所 著作 品 、 描 述 
资源 ( Resource ) 图 书 图 书 ID 、 题 名 、 出 版 时 间 、 责 任 者 、 出 版 社 、ISBN 、 描 述 
6 诗词 诗词 ID、 题目 、 作 者 、 上 有 具体 内容、 描述 
电影 电影 ID 、 名 称 、 类 型 、 上 映 时 间 、 参 演 演 员 、 导 演 、 编 剧 、 描 述 


上 述 所 设计 的 本 体 库 中 ， 概 念 和 子 概念 之 
间 是 上 下 位 关系 ， 子 概念 具有 不 同 的 属性 ， 子 
概念 所 包含 的 实体 和 实体 之 间 则 存在 不 同 的 语 
义 关 联 ， 如 人 物 与 人 物 之 间 存 在 “配偶 ，、“ 子 
女 ” 等 多 种 关系 , 建筑 与 人 物 / 事 件 之 间 存 在 “ 纪 
念 ”关系 , 基于 前 文 所 述 概念 设计 , 最 终 确定 “ 红 
色 记 忆 ” 中 所 涉及 的 部 分 关系 。 通 过 本 体 构建 
工具 Protégé 添加 “红色 记忆 ”定义 好 的 概念 及 
关系 ， 完 成 “红色 记忆 ”知识 建 模 ， 设 计 的 部 
分 本 体 概念 如 图 2 所 示 : 


02 


表 2 “红色 记忆 ”部 分 关系 


关系 名 称 关系 说 明 
配偶 (hasMate ) 人 物 与 人 物 之 间 
子女 (hasChild/isChildOf ) 人 物 与 人 物 之 间 
纪念 (commemorateFor ) 人 物 / 事 件 与 建筑 
成 员 (hasMember ) 组 织 与 人 物 
事件 类 型 (hasEventGenre ) 事件 与 事件 类 型 
5 (particaipateln ) 人 物 与 事件 
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红色 文化 资源 见证 了 我 们 党 从 成 立 之 初 到 
逐渐 发 展 壮大 的 整个 过 程 “"， 其 历史 发 展 的 周 
期 较 长 ， 所 以 其 资源 采集 、 处 理 和 存储 方式 也 
不 尽 相 同 ， 这 也 使 得 与 红色 文化 资源 有 关 的 数 
据 也 呈现 出 明显 的 多 源 异 构 性 。 全 国 各 地 的 图 
书馆 、 档 案 馆 、 博 物 馆 及 各 类 纪念 馆 、 陈 列 馆 、 
红色 旅游 景点 等 都 是 获取 红色 文化 资源 的 来 源 ， 
除 此 外 ， 大 数据 时 代 的 到 来 也 使 得 各 种 Web 资 
源 变 成 获取 红色 文化 资源 的 重要 来 源 。 所 以 ， 
从 这 些 来 源 采 集 到 的 结构 化 数据 、 半 结构 化 数 
据 和 非 结 构 化 数据 就 是 构建 “红色 记忆 ”知识 
图 谱 的 数据 基础 。 

结构 化 数据 能 够 用 数字 或 文字 来 描述 或 表 
达 , 具有 相同 的 层次 或 网 络 结构 ， 通 常 存 储 在 
关系 型 数据 库 中 。“ 红 色 记 忆 ” 的 结构 化 数据 
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< 一 一 一 
-一 


图 2 “红色 记忆 ”部 分 概念 本 体 


主要 来 源 于 开放 数据 集 ， 具 体 方法 是 利用 API 
接口 将 数据 下 载 到 本 地 并 存储 为 关系 型 数据 。 
“红色 记忆 ”知识 图 谱 的 构建 便 是 基于 结构 化 
数据 ， 并 搜集 其 他 不 同 来 源 、 不 同 结构 的 数据 
进行 补充 。 

非 结 构 化 数据 通常 是 利用 自然 语言 形式 保 
存 的 文本 资源 ""， 是 最 丰富 的 知识 来 源 ， 在 红 
色 文化 网 页 、 红 色 旅 游 网 页 、 图 书 等 非 结 构 化 
的 数据 源 中 均 存 在 大 量 文本 。 实 体 识 别 作为 自 
然 语 言 文本 处 理 的 基础 “， 是 知识 图 谱 构 建 的 
重要 步骤 。 实 体 识别 即 命名 实体 识别 ， 是 指 从 
语 料 中 抽取 出 具有 特定 含义 的 命名 性 指称 项 ， 
如 和 人名、 地 名 及 机 构 名 等 中。 对 “红色 记忆 ” 
知识 图 谱 而 言 ， 要 识别 的 实体 即 是 在 模式 层 的 
“红色 记忆 ”本 体 模型 中 所 定义 的 概念 。 对 于 
实体 识别 ,目前 最 常用 的 方法 是 通过 机 带 学 习 
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KKA, HAAA P25 NG He 6 A Se TL A it 
中 获取 “红色 记忆 ” 语 料 ， 再 利用 分 词 工具 对 
语 料 进 行 分 词 、 标 注 等 预 处 理工 作 ， 之 后 将 标 
注 好 的 语 料 进 行 词 向 量 转换 。 最 后 选取 训练 集 
语 料 ， 并 通过 机 器 学 习 训 练 出 抽取 模型 上， 利 
用 实体 识别 模型 来 从 文本 中 提取 出 “红色 记忆 ” 
的 实体 ,实体 识别 完成 后 , 可 继续 进行 属性 获取 。 

“红色 记忆 ”知识 图 谱 实体 属性 获取 的 来 
源 是 各 类 百科 网 站 词 条 的 infobox, infbox 中 的 
言 息 通 常 为 半 结 构 化 数据 ， 这 些 数 据 具 有 和 较 高 
的 一 致 性 和 完整 性 ， 这 使 得 在 获取 “红色 记忆 ” 


I 基本 信息 
中 文 名 称 BER 
外 文 名 称 Zhicheng Yang 
HE BER 
国籍 中 华人 民 共和 国 
民族 侗族 
出 生地 Sheree 


V<div class="card-list-box" 
V<ul class="cardlist 
v<li 
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PAB, R aA Me eRe a Bil h 
相应 的 infobox 标签 即 可 获取 关于 人 物 的 一 些 基 
本 信息 。 例 如 图 3 展示 的 是 “ 杨 至 成 ”这 一 人 
物 词 条 的 360 百科 的 infobox 信息 ， 选 取 其 中 的 
中 文 名 称 、 外 文 名 称 、 别 名 、 国 籍 4 个 属性 ， 
通过 浏览 网 页 源 代码 可 以 得 到 这 些 属性 的 信息 
( 见 图 4)。 通 过 解析 网 页 源 代码 ， 发 现 根 据 
“class” 标 签 找 到 人 物 所 对 应 的 属性 ， 那 么 可 
以 利用 python 的 BeautifulSoup JÆ X Xf html 元 
素 进 行 操作 ， 从 而 获取 “ 杨 至 成 ”的 属性 信息 ， 
得 到 < 实体 ， 属性， 属性 值 > 三 元 组 。 


出 生日 期 1903115308 

送 世 日 期 1967 年 2 月 3 日 

职业 军人 

毕业 院 校 苦境 军校 

信 们 中 国共 产 党 

主要 成 就 1955 年 被 授予 上 将 军衔 


中 南 军 区 敌 一 副 参 谋 长 


图 3 人 物 词 条 infobox 


V<div class= 
p class= 
p class= 


/div 
/1i 
v<li 


V<div class= 
p class= 
p class= 


/div 
/1i 
v<li 


V<div class= 
p class=" 
p class= 


/div 
/1i 
vx1i 


V<div class= 
p class= 
p class= 


/div 
fli 


实体 间 关 系 的 识别 抽取 则 与 实体 识别 
的 原理 类 似 ， 再 获取 得 到 “红色 记忆 ” 实 
体 后 ， 结 合 所 获得 的 “红色 记忆 ”实体 ， 
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‘cardlist-con' 
”cardlist-name”title=" 中 文 名 称 "> 中 文 名 称 <7p 
"cardlist-value”title=" 杨 至 成 "> 杨 至 成 </p 


‘cardlist-con' 


“cardlist-name” title=" 外 六 名称" 六 文 名 称 <7p 


“cardlist-value" title="Znicheng Yang">Zhicheng Yang</p 


‘cardlist-con’' 


cardlist-name" title="I" Bil </p 


"cardlist-value”title=” 杨 至 成 杨 至 成 </p 


‘cardlist-con' 
“cardlist-name" title" H" E </o 
“cardlist-value” title=" PHA RHE > 中 华人 民 共 和 国 </p 


图 4 网 页 源码 


选取 含 实体 对 象 较 多 的 语句 ， 对 其 进行 实 
体 关 系 的 抽取 。 通 过 对 实体 、 属 性 、 关 系 
的 识别 抽取 ,最 终 获取 到 构建 “红色 记忆 ” 
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知识 图 谱 所 需要 的 实体 、 属 性 和 关系 。 最 后 ， 
把 从 不 同 来 源 获 取 的 数据 进行 整理 归 类 ， 


> 


ArchiD ] nameS 
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例如 图 5 所 示 : 


firstImg type desc 
1 杨 至 成 故居 Hez 同时 于 2013 年 对 杨 至 诚 梅 军 故 居 进 行 维 修 ， 故 居 位 - 
2 ARR RAMS Shee 省 政 级 受 | 周 逸 群 烈士 故居 原 街 名 大 公馆 ，1984 年 于 国庆 修复 | 
3 王 伯 群 上 海 # 上 海 市 长 宁 区 上 海 市 长 守 https://baike BRE 王 伯 群 上 海 故居 位 于 长 宁 区 昌 园 路 1136 弄 31 号 ， 该 
4 FERS 圭 阳 市 南明 区 : SIRS https://baike 省 级 文物 { 王 伯 群 故居 是 宾 阳 历史 上 每 一 栋 仿 西式 建筑 ， 时 光 | 
5 XMS SSAA 兴 义 市 。 ”https;//baike SESH] 王 伯 群 故居 位 于 兴 义 市 下 五 记 街 道 办 事 处 景 家 屯 ，: 
6 总 统 府 江苏 省 南京 市 南京 市 玄 姑 https://baike 全 国 重点 - 南京 总 统 府 ， 位 于 江苏 省 南京 市 玄武 区 长 江 路 292 三 
7 段 祺 尘 执 政 | 北京 市 东城 区 ; 北京 市 车 志 https://baike HAAR: RSET, BALSA, BRESA 
8 BRS 上 海 市 普陀 区 HOSTER http://image 华东 师范 ; 华东 师范 大 学 前 身 学校 之 一 大 夏 大 学 的 师 生 1946 年 : 
9 龙 大 道 列 十 # BRESSS SRE 。 ”https://gss2., SR! 龙 大 道 列 十 故居 位 于 锦 屏 县 芒 坪 镇 上 案 村 ， 距 县 城 8 
10 Stk S841177 上 海 市 。 http://s13.sit HOSTE: 《徐汇 区 志 》 大 事 记 中 写 道 ，1928 年 中 共 党 员 钱 壮 
11 VAKA ” 苦 波 县 城北 向 | 苦 渡 县 。 https://gss3, 圭 州 敬文 # 邓 恩 铭 列 十 故居 为 一 栋 四 排 二 间 土 木 结 构 的 普通 居 E 
12 HBAS: REBA SSS HEASSCNEATESAXN, SITAR. L 
13 ARR PSI SCH 1 ARRAS, TSN IK PS IAs 


address place 


14 EVAL FES Bum 国家 一 级 | 

15 四 渡 去 水 纪 4 SNAKES 遵义 市 国家 二 级 | 四 渡 赤 水 纪念 馆 包 括 四 渡 去 水 纪念 馆 主 馆 、 中 国 妇科 
16 ARFS ”湖南 省 岳阳 市 君山 周 饮 群 营 位 于 湖南 省 皇 阳 市 君山 区 境内 ， 周 逸 群 烈 3 
17 中 山陵 江苏 省 南京 市 南京 市 玄 娠 https://baike SAET 中 山陵 是 中 国 近代 伟大 的 民主 革命 先行 者 孙中山 先 4 


18 t kad Senh 毕节 市 。 “https;//gss1. 国家 安全 
19 ZAI HIESA 黔 东南 苗 访 https://gss3. SRSA: 锦 屏 县 把 龙 大 道 列 十 陵园 修 葵 一 新 ， 新 坚 龙 大 道 列 : 


图 5 “红色 记忆 ”部 分 数据 示例 


并 将 其 存储 在 关系 数据 库 中 ， 部 分 数据 示 


命 “ 红 色 记 忆 ” 知 识 存储 

目前 ， 知 识 图 谱 的 存储 工作 主要 是 通过 图 
数据 库 完 成 的 。 通 过 图 数据 库存 储 知识 图 谱 ， 
能 够 实现 图 数据 的 可 视 化 ， 并 能 通过 图 数据 库 
所 提供 的 各 种 工具 对 知识 图 谱 进 行 集成 管理 ， 
能 高 效 迅 速 地 满足 用 户 的 各 类 需求 。 当 前 ， 
Neo4j 以 其 优良 的 性 能 和 简单 的 操作 等 优点 ， 
在 各 种 网 数据 库 中 使 用 最 为 广泛 。 笔 者 将 “ 红 
色 记 忆 ” 知 识 图 谱 存 储 在 Neo4j 中 ，Neo4j 中 
的 标签 代表 “红色 记忆 ”中 的 概念 ， 节 点 代表 
了 “红色 记忆 ”中 的 实体 ， 而 边 则 描述 的 是 关 
系 。Neo4j 通过 执行 Cypher 命令 能 够 管理 和 
操作 知识 图 谱 中 的 数据 。 由 于 Cypher 命令 提 
供 批量 导入 CSV 格式 数据 的 Load 语句， 所 以 
将 关系 型 数据 库 中 的 “红色 记忆 ”知识 转化 为 
CSV 格式 的 文件 进行 存储 ， 并 按照 以 下 语句 
批量 导入 。 


批量 导入 概念 /实体 ( 以 导入 “建筑 ”为 例 ): 
LOAD CSV WITH HEADERS FROM 
“file:///Architecture.csv” AS line 

MERGE(p:Architecture{ArchID:lin 
e.ArchID,nameS:line.nameS,address:line. 
address,place:line.place,firstImg:line. 
firstImg,type:line.type,desc:line.desc}) 

批量 导入 关系 〈 以 导入 人 物 与 事件 之 间 的 
关系 “ParticiPateIn” 为 例 ) : 

LOAD CSV WITH HEADERS FROM “file:/// 
PersonToEvent.csv” AS line 

Match(from:Person {PersonID:line.PersonID}) 
,(to:Event {EventID:line.EventID}) 

merge(from)-[r:participateIn {PersonID:line. 
PersonID,EventID:line.EventID} |->(to) ) 

将 存储 在 关系 型 数据 库 中 的 “红色 记忆 ” 
知识 批量 导入 Neo4j 后 形成 “红色 记忆 ”知识 
Ais, 结果 如 图 6 所 示 ， 蓝 色 的 圆 点 表示 人 物 ， 
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绿色 的 圆 点 表示 组 织 ， 红 色 圆 点 表示 建筑 ， 标 


色 圆 点 表示 红色 资源 ,橙色 原点 代表 事件 ， 通 
过 箭头 指示 它们 之 间 的 关系 。 由 于 知识 图 谱 所 
具有 的 开放 互联 的 特性 ， 后 续 还 可 运用 Cypher 
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命令 增加 新 的 数据 ”…, 形成 大 规模 “红色 记忆 ” 
知识 图 谱 ， 从 而 实现 红色 文化 智能 搜索 、 知 识 
问答 、 知 识 推理 等 应 用 ， 为 实现 红色 文化 资源 
的 智能 化 服务 葛 定 基础 。 


6 结语 


将 知识 图 谱 这 一 新 的 组 织 技术 应 用 于 红色 
文化 资源 的 开发 研究 ， 是 红色 文化 资源 学 科 发 
展 的 必然 抉择 ， 也 是 数字 化 、 智 能 化 的 时 代 要 
求 。 笔 者 通过 定义 概念 、 属 性 、 关 系 设 计 了 “ 红 
色 记 忆 ” 本 体 库 ， 完 成 “红色 记忆 ”知识 建 模 ， 
并 从 结构 不 同 、 来 源 各 异 的 红色 文化 数据 源 获 
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图 6 “红色 记忆 ”知识 图 谱 


取 数 据 ， 基 于 这 些 数据 进行 命名 实体 的 识别 、 
关系 及 属性 抽取 来 获取 知识 ， 进 而 得 到 “红色 
记忆 "三 元 组 ,并 将 其 存储 于 Neo4j 中 ,构建 了 “ 红 
色 记 忆 ” 知 识 图 谱 , 从 而 更 进一步 地 提升 红色 文 
化 资源 的 组 织 程度 , 将 红色 文化 资源 以 更 直观 、 
更 现代 的 方式 呈现 出 来 ， 使 得 分 布 于 各 处 的 碎 
片 化 红色 文化 资源 得 到 了 重组 中 ， 重 现 了 蕴涵 
在 书籍 、 歌 曲 、 遗 址 中 的 “红色 记忆 ”。 在 后 
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续 的 工作 中 ， 笔 者 将 进一步 对 “红色 记忆 ” 知 
识 图 谱 的 智能 问答 、 知 识 推理 等 应 用 进行 研究 ， 
满足 用 户 对 于 红色 文化 的 智能 化 服务 的 需求 ， 
更 大 程度 上 发 挥 红色 文化 资源 中 所 蕴含 的 价值 。 


参考 文献 


[1] 


[2] 


[3] 


[4] 


[5] 


[6] 


[7] 


[8] 


SINGHA A. Introducing the knowledge graph: things, not 
strings[EB/OL]. [2019-04-10]. http://googleblog.blogspot. 
co.uk/2012/05/introducing-knowledge-graph-things-not. 
html. 

SUCHANEK F M, KASNECI G, WEIKUM G. Yago: a 
core of semantic knowledge[C]//Proceedings of the 16th 
international conference on World Wide Web. New York: 
ACM, 2007: 697-706. 

DONG X, GABRILOVICH E, HEITZ G, et al. 
Knowledge vault: a web-scale approach to probabilistic 
knowledge fusion[C] //International conference on 
knowledge discovery and data mining. New York: ACM, 
2014: 601-610. 

XU B, XU Y, LIANG J, et al. CN-DBpedia: a never- 
ending Chinese knowledge extraction system[C]// 
International conference on industrial, engineering and 
other applications of applied intelligent systems. Berlin: 
Springer, 2017: 428-438. 

WANG Z, LI J, WANG Z, et al. XLore: a large-scale 
English-Chinese bilingual knowledge graph[C]// 
International semantic Web conference. New York: ACM, 
2013: 121-124. 

HR , KRE . 中华 红色 文化 的 主要 特质 及 时 代价 值 
DI. 山西 广播 电视 大 学 学 报 , 2017(1): 103-105. 

王 茂 春 . 特色 文化 资源 与 高 新 技术 融合 的 路 径 探索 [I]. 
中 华文 化 论坛 , 2015(6): 128-133. 
EEF, 张 同 乐 , 张 志 永 . 西柏 坡 红色 文化 资源 数据 库 
ERAN 四. 河北 师范 大 学 学 报 (哲学 社会 科学 版 )， 


11] 


12] 


13] 


14] 


15] 


16] 


17] 


18] 


19] 


20] 


21] 


[22] 


[23] 


[24] 


ChinaXiv 合 作 期 刊 
知识 管理 论坛 ，2020 ( 1) :59-68 
DOI: 10.13266/j.issn.2095-5472.2020.006 


2014, 37(1): 140-145. 
李 实 .准确 认识 “红色 资源 ”的 丰富 内 涵 [J]. 政工 学 刊 ， 
2005(12): 23. 

漆 桂 林 , 高 醒 , RRE .知识 图 谱 研 究 进 展 (J). 情报 工 
程 ,2017, 3(1): 4-25. 

XIU, 李杨 , BRE , 等 . 知识 图 谱 构建 技术 综述 [J]. 计 
算 机 研究 与 发 展 ,2016, 53(3): 582-600. 

马 灿 .面向 "智慧 法 院 " 的 知识 图 谱 构建 方法 与 研究 [D]. 
贵州 : 贵州 大 学 , 2019. 

GRUBER T R. Toward principles for the design of 


ontologies used for knowledge sharing?[J]. International 
journal of human-computer studies, 1995, 43(5/6): 907- 
928. 

岳 丽 欣 , 刘 文 云 . 国内 外 领域 本 体 构建 方法 的 比较 研 
F (I). 情报 理论 与 实践 ,2016, 39(8): 119-125. 

张 泰 城 . 论 红色 文化 资源 [J]. 红色 文化 资源 研究 ， 
2015, 1(1): 1-11. 
渠 长 根 , 闻 洁 璐 . 红色 文化 资源 研究 综述 [J]. 浙江 理工 
大 学 学 报 (社会 科学 版 ), 2019, 42(2): 179-187. 

张 泰 城 . 论 红色 文化 资源 的 分 类 LT]. 中国 井 冈 山 干部 
学 院 学 报 , 2017, 10(4): 137-144. 

张 克 伟 . 沂蒙 红色 文化 资源 产业 化 研究 [D]. 济南 : 山 
东 大 学 , 2010. 

许 庆 领 . 人 文 地 理 信 息 整合 及 可 视 化 关键 技术 研究 [D]. 
旱 新 : 辽宁 工程 技术 大 学 , 2012. 
郭 文 龙 . 中 医 方 剂 知识 图 谱 构建 研究 
兰州 大 学 , 2019. 

张 晓 艳 , EPE, 陈 火 旺 . 命名 实体 识别 研究 [J]. 计算 机 
科学 , 2005(4): 44-48. 
王 良 黄 .基于 web 数据 的 碳 交 易 领 域 知识 图 谱 构 建 研 
F [D]. 马鞍 山 : 安徽 工业 大 学 , 2018. 
HEJ, TT, VES, 等 , 多 源 异 构 数据 的 大 规模 地 理 
知识 图 谱 构建 [J]. 测绘 学 报 , 2018, 47(8): 1051-1061. 
RI, 赵 志 凯 , EA, 等 . 煤矿 巷道 文 护 领域 知识 图 
谱 构 建 [J]. 工矿 自动 化 ,2019, 45(6): 42-46. 


与 实现 [D]. 兰州 : 


07 


202310.03038v1 


chinaXiv 


ChinaXiv 合 作 期 刊 
cm ete 


www.kmf.ac.cn 2020 年 第 il 期 ( 总 第 25 期 ) 


Construction of “Red Memory” Knowledge Graph Based on Multi-source Heterogeneous 
Data Mining 


Guo Jiaxin 
Information Management School of Central China Normal University, Wuhan 430079 

Abstract: [Purpose/significance] Red cultural resources are produced in the process of the Chinese 
nation and the Chinese Communists’ pursuit of truth. Constructing “red memory” by organizing and mining 
knowledge of red cultural resources can not only enhance national self-confidence and cohesiveness, 
but also be an important part of cultural self-confidence. There may be many problems when using red 
cultural resources, such as wide distribution, multiple sources and types, limited content and low degree 
of organization. In order to make full use of red cultural resources, this paper constructs a “red memory” 
knowledge graph based on multi-source heterogeneous data. [Method/process] Firstly, this paper constructed 
a red cultural resource ontology library for knowledge modeling of “red memory”. Secondly, it analyzed 
the composition and characteristics of red cultural resources collected through multiple channels and extract 
entities, attributes, relationships. Finally, the “red memory” knowledge graph was constructed through 
knowledge fusion and storage. [Result/conclusion] By constructing the “red memory” knowledge graph, it 
is possible to mine deep relationship on multi-source heterogeneous red cultural resource data, improve the 
organization degree of red cultural resources, and realize of intelligent services of red cultural resources. 
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